CUDAプログラミングガイド：ハードウェアからソフトウェアへのマッピング：コンピュート能力バージョン

コンピュート能力（CC）は、 仮想アーキテクチャ （PTX）と 実アーキテクチャ （SASS/バイナリ）の間をつなぐバージョン管理のブリッジとして機能します。開発者は nvcc を用いて、デスクトップ／サーバー向けプラットフォームから組み込みプラットフォームまで、さまざまなターゲットに設定します。対応するオペレーティングシステムモデルとしては Linux 64ビット（LP64） または Windows 64ビット（LLP64）があります。

1. 仮想アーキテクチャと実アーキテクチャ

CUDAツールキットは、最新の2つの主要なバージョンのGPUアーキテクチャをサポートしています。その内容は 表29：コンピュート能力による機能サポート（7.5～12.x）に記載されています。マッピングは、以下のようなフラグを使用して定義されます： nvcc --generate-code arch=compute_80,code=sm_90 prog.cu。将来のターゲット向けには、 nvcc -arch=sm_100 や特殊なバリエーションである nvcc -arch=sm_100a が使用されます。

2. マクロ階層

コンパイラは __CUDA_ARCH__ を使ってコードの分岐を行います。 マクロ __CUDA_ARCH__ は、デバイスコード（例： ）のみで定義されます。 __device__、 __global__）でのみ有効です。より細かい制御は __CUDA_ARCH_SPECIFIC__ および __CUDA_ARCH_FAMILY_SPECIFIC__によって提供されます。特定の機能（例： 分散共有メモリ または特定の NaNペイロード）は、 コンピュート能力9.0以上 または コンピュート能力10.0以降があります。

3. 数値の限界と制約

精度はコンピュート能力（CC）によって異なります。たとえば、サブノーマル処理により $2^{-16382} \approx 3.36 \cdot 10^{-4932}$ が保証されます。ターゲットとなるCCバージョンに基づいて厳格に適用されるハードウェア制限として CUDA_DEVICE_MAX_COPY_CONNECTIONS=16 や .maxnreg PTXディレクティブ が存在します。

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Where is the __CUDA_ARCH__ macro strictly defined?

In both host and device code to identify the GPU hardware.

Only in device code (__device__, __host__ __device__, or __global__).

Only in the host-side main() function.

In the NVML API headers only.

QUESTION 2

Which command correctly targets a virtual arch of 8.0 and a real arch of 9.0?

nvcc -arch=sm_80,code=compute_90

nvcc --generate-code arch=compute_80,code=sm_90

nvcc --target=cc_8.0_9.0

nvcc -arch=sm_90

QUESTION 3

What is the consequence of declaring 'namespace cuda { struct foo; }' in CUDA code?

It enables high-speed memory access.

It is an error; the 'cuda' namespace is reserved.

It is required for using cuda::std::result_of.

It allows the use of __nv_atomic_load.

QUESTION 4

Which mathematical property is associated with CC 9.x and higher?

Support for 16-byte data types.

Basic support for fabs(x) and sin(x).

Introduction of the warpSize macro.

Ability to use x + y in kernels.

QUESTION 5

What happens when an extended lambda is defined inside a generic lambda using Microsoft Visual Studio host compilers?

It compiles successfully and inlines perfectly.

The host compiler may fail to inline or throw an error.

It enables __managed__ memory by default.

It triggers the on-disk JIT compilation cache.